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大 数据 时 代 的 社会 计算 
沈 华 伟 程 学 族 


引言 


随 着 智能 终端 、 传 感 设备 的 普及 和 泛 在 数据 感知 技术 、 社 交 网 络 服务 的 快速 发 展 ， 人 类 

社会 的 信息 化 日 益 深 入 , 积累 下 的 大 量 社会 感知 数据 为 定量 理解 人 类 社会 提供 了 前 所 未 有 的 
数据 资源 。 裔 布 的 监控 摄像 和 传 感 设备 实时 获取 PB 级 的 数据 ， 为 我 们 认识 物理 世界 的 环境 
因素 变化 、 城 市 交通 状况 等 提供 了 详细 的 资料 ，Facebook 等 社交 网 络 和 新 浪 微 博 等 社会 媒 
体 每 天 记录 着 数 亿 用 户 的 所 言 所 行 , 为 我 们 了 解 网 络 空 间 的 与 情 热 点 提供 了 丰富 的 数据 ; 手 
机 、 手持 电 脑 等 移动 智能 终端 记录 着 人 类 移动 模式 等 实时 社会 动态 , 为 我 们 理解 人 类 的 社会 
活动 规律 提供 了 原始 素材 ,这些 社 会 感知 数据 是 连接 物理 世界 、 网 络 空间 、 人 类 社会 的 纽带 。 
一 其 数据 规模 以 指数 量 级 随时 间 增 长 , 并 呈现 出 多 源头 、 跨 媒体 、 复 杂 关 联 、 持续 变化 等 特点 ， 
> 如 何 有 效 利用 社会 感知 数据 进行 社会 计算 ， 是 大 数据 时 代 的 一 项 重要 研究 课题 。 
对 大 数据 时 代 社 会 计算 的 研究 , 核心 问题 主要 包括 三 个 方面 : (1). 社会 因素 的 可 计算 性 : 
分 析 哪 些 社会 因素 可 以 通过 社会 感知 数据 进行 度量 和 计算 ; (2). 社会 行为 的 可 预测 性 : 分 析 
自发 、 随 机 的 个 体 行 为 背后 的 规律 和 模式 , 探索 群体 行为 的 涌现 机 理 并 分 析 其 可 预测 性 ; (3). 
社会 计算 的 复杂 性 : 集中 体现 在 多 种 社会 因素 的 耦合 以 及 社会 行为 的 晨 率 特征 ,使 社会 计算 
面临 诸多 不 确定 性 因素 。 

本 文 围绕 大 数据 时 代 的 社会 计算 ， 从 社会 化 推荐 、 影 响 力 分 析 、 网 络 结构 分 析 、 网 络 信 
县 传播 几 个 方面 介绍 我 们 在 社会 计算 方面 进行 的 一 些 研究 工作 , 主要 包括 : 社会 化 推荐 的 后 
验 效用 后 、 可 扩展 高 精度 的 影响 力 最 大 化 算法 让、 网 络 多 类 型 结构 规则 分 析 吕 和 微 博 消 息 流 
行 度 预 测 外 四 个 方面 。 


社会 化 推荐 中 的 后 验 效 用 


二 社会 化 推荐 是 指 人 和 人 之 间 的 直接 推荐 , 推荐 的 发 送 者 和 接收 者 均 为 真实 的 个 体 , 而 不 
Dt 是 人 类 设计 的 推荐 系统 。 在 社会 化 推荐 中 , 个 体 之 间 的 社会 影响 力 发 挥 着 重要 的 作用 。 社 会 
影响 力 是 指 一 个 人 的 意见 如 何 通过 社会 关系 影响 到 另 一 个 人 的 行为 。 人 与 人 之 间 相 互 影 响 的 
特性 ， 在 很 大 程度 上 决定 整个 网 络 的 行为 模式 。 探 明 其 作用 机 制 ， 对 于 理解 社交 网 络 上 的 交 
互 行为 、 设 计 病 毒 式 营销 模型 等 是 很 有 必要 的 。 
我 们 的 研究 基于 口碑 推荐 ,一 个 人 发送 者 ) 向 他 的 朋友 〔 接 收 者 〉 推 荐 某 一 商品 ， 这 
会 对 接收 者 产生 如 何 的 影响 。 以 往 对 这 一 问题 的 研究 主要 集中 于 “口碑 推荐 如 何 影 响 朋 友 的 
购买 行为 ” 影响 力 体现 在 接收 者 做 出 决策 前 对 该 商品 的 先 验 期 望 的 变化 。 但 与 之 对 应 的 另 
一 方面 目前 很 少 有 研究 关注 , 即 口碑 推荐 如 何 影响 接收 者 做 出 决策 后 对 该 商品 的 后 验 体验 的 
变化 。 比 方 说 ， 当 张 三 告诉 李 四 某 部 电影 值得 一 看 ， 目 前 的 研究 关注 这 一 推荐 行为 如 何 鼓 励 
李 四 走 进 电影 院 买 票 观看 ,但 其 少 了 解 李 四 看 完 电 影 后 的 观感 体验 。 通 常 的 直觉 认为 ， 推 荐 
行为 不 会 对 后 验 体验 有 影响 , 因为 后 验 体验 只 取决 于 李 四 本 人 对 电影 的 兴趣 以 及 电影 本 身 的 
水 准 。 但 本 文 发 现 了 一 个 反 直 观 的 现象 ， 推 荐 行为 对 于 后 验 体验 的 影响 是 显著 存在 的 。 我们 
通过 统计 假设 检验 验证 了 这 一 现象 ， 据 此 定义 了 后 验 的 社会 影响 力 并 初步 探索 了 其 相关 因 
素 。 


大 数据 时 代 的 社会 计算 


首先 我 们 分 析 了 在 两 个 在 线 社交 网 络 ( 豆 办 和 Goodreads ) 中 , 如果 用 户 对 某 一 对 象 ( 如 
电影 /书籍 /音乐 等 ) 做 出 评分 之 前 曾经 有 朋友 向 他 推荐 过 这 一 对 象 ， 他 的 评分 是 否 会 有 显著 
改变 。 图 1(a) 展 示 了 一 部 示例 电影 的 评分 分 布 图 , 浅 色 柱 表示 接收 过 推荐 的 用 户 的 评分 概率 ， 
深 色 柱 表 示 未 接收 过 推荐 的 用 户 的 评分 概率 。 浅 色 柱 在 高 分 区 域 (5 分 ) 的 概率 明显 高 于 深 
色 柱 , 表明 用 户 在 接收 到 推荐 的 情况 下 更 倾向 于 对 这 部 电影 给 出 较 高 评分 。 图 1(b) 和 (c) 分 别 
展示 了 在 豆 闪 和 Goodreads 上 对 这 一 现象 的 统计 结果 。 实 线 表示 接收 过 推荐 的 用 户 的 评分 概 
率 分 布 , 虚线 表示 未 接收 过 推荐 的 用 户 的 评分 概率 分 布 , 可 以 看 到 上 述 结果 得 到 大 样本 统计 
支持 。 于 是 我 们 认为 ,“ 用 户 曾 经 接收 到 朋友 对 于 某 一 对 象 的 推荐 ”这 一 事实 ， 与“ 用户 给 
出 较 高 的 评分 ” 是 具有 明显 的 关联 关系 的 ， 亦 即 “ 用 户 在 体验 过 被 推荐 对 象 后 的 后 验 体验 
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仅仅 观测 到 关联 关系 是 不 够 的 , 还 需要 进一步 判断 这 种 关联 是 否 来 自 因果 性 , 才能 验证 


(二 LE 荐 行为 是 否 能 影响 用 户 的 后 验 体验 。 两 个 

事件 的 相关 性 只 可 能 来 自 两 种 情况 ， 某 一 个 Cc) 

2 事件 是 另 一 事件 的 原因 ; 或 者 存在 第 三 方 因 

> 素 作 为 这 两 个 事件 的 公共 原因 ,。 图 29) 表 示 (my (7) (mw)—() 


| 
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全 了 一 种 可 能 的 解释 ， “用 户 的 司 验 体验 ” r 与 (a) 独 立 模型 (b) 影 响 模 型 
:二 “朋友 是 否 曾 给 出 推荐 ”m' 是 独立 的 两 个 事 
< 件 ， 由 于 同时 受到 某 个 第 三 方 因素 《例如 对 © 


象 本 身 的 质量 、 朋 友之 间 的 兴趣 相似 程度 等 ) 
的 影响 而 表现 出 关联 关系 ， 我 们 称 其 为 “ 独 2 人 D== 0 
立 模型 ”>。 图 2(b) 表 示 了 男 一 种 可 能 的 解释 ， 
r 直接 受到 m' 的 影响 ， 我 们 称 其 为 “影响 模 


of 四 © 


为 了 说 明 哪 一 种 解释 是 合理 的 ， 我 们 引 (c)r' 被 观测 情 (d)r' 被 观测 情 
入 另 一 个 观测 量 荐 人 自己 的 给 分 r( 如 形 下 的 独立 模型 形 下 的 影响 模型 


果 没 有 推荐 人 ， 即 m=0， 则 随机 挑选 一 个 用 0 本 
户 的 给 分 作为 避 )， 来 简化 模型 。 不 妨 图 2， 关 联 关 系 的 两 种 可 能 解释 

假设 m' 完 全 由 r 决 定 , 即 每 个 人 是 否 做 出 推荐 完全 取决 于 他 自己 对 该 对 象 的 后 验 体验 。 独 立 
模型 变 成 图 2(c) 所 示 情 况 。 这 个 模型 存在 一 种 条 件 独 立 性 关系 ， 即 当 r 被 观测 的 时 候 ，m 与 
r 是 条 件 独立 的 。 于 是 影响 模型 变 成 了 图 2(d) 所 示 情 况 。 由 于 r' 不 参与 影响 模型 ， 因 此 r 被 
观测 的 时 候 ，m' 与 + 仍然 是 相关 的 。 据 此 我 们 只 要 观察 在 真实 数据 中 ，r' 被 观测 的 情况 下 mm 
与 + 的 条 件 独立 性 关系 即 可 判定 哪 种 解释 是 合理 的 。 
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E 上 述 条 件 独立 和 
方式 下 ,检验 结果 表现 一 致 ， 均 以 较 高 概率 # 
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E 关 系 。 如 图 3 所 示 , 在 两 个 数据 集 和 两 
E 绝 同 分 布 零 假 设 ， 即 认为 


独立 模型 中 的 条 件 独立 性 关系 不 成 立 。 因 此 我 们 得 出 结论 ,“ 朋 友 是 否 做 出 推荐 ”会 直接 影 
响 “ 用 户 对 于 被 推荐 对 象 的 后 验 体验 ”。 我 们 据 此 定义 用 户 的 社会 影响 力 为 “做 出 推荐 后 ， 


接收 推荐 的 用 


户 的 后 验 体验 的 改变 程度 ”。 两 利 


中 


户 常 常 被 发 现 具 有 这 样 的 影响 力 ， 一 种 用 


户 拥有 很 多 的 朋友 , 他 们 的 话语 通常 因 具 有 较 高 的 权威 性 而 被 接受 ， 另 一 种 用 户 拥有 敏锐 的 
鉴赏 能 力 ， 能 够 先 于 大 多 数 普通 用 户 发 现 优质 对 象 。 


静态 影响 力 最 大 化 算法 


影响 力 最 大 化 (Influence Maximization, IM) 问题 是 在 给 定 传播 模型 的 基础 上 ， 解 决 如 


何在 网 络 上 选择 一 部 分 初始 用 


户 , 由 他 们 通过 口 


相传 的 口碑 效应 将 企业 的 产品 或 信息 尽 可 


能 地 推广 出 去 。 肯 培 (Kempe) 等 人 最 早 将 将 该 问题 形式 化 为 一 个 离散 型 优化 问题 局 ; 给 定 


一 张 由 社会 网 络 抽象 出 的 图 ， 一 个 影响 力 传播 模型 ， 和 一 个 整数 要求 在 图 


中 寻找 一 个 由 


个 节点 (也 称 为 种 子 节 点 ) 组 成 的 集合 S$， 使 得 该 集合 5S 在 当前 影响 力 传播 模型 下 ， 期 望 
的 影响 力 传播 规模 〈 即 最 终 被 影响 成 功 的 节点 总 数 ) 尽 可 能 最 大 。 他 们 证 明了 独立 级 联 模型 
和 线性 疝 值 模型 上 IM 问题 的 目标 函数 具有 单调 性 和 子 模 性 ,因此 使 用 贪 焚 算 法 进行 求解 能 


取得 一 个 较 优 的 近似 解 ， 近 似 


比 为 1-1/e 约 为 0.63)。 贪 焚 算 法 需要 我 们 能 够 计算 出 给 定 节 


点 集合 的 影响 力 , 然而 精确 计算 出 给 定 节 点 集合 的 影响 力 具有 很 高 的 计算 开销 , 因此 通常 采 


CELF++! 和 NewGreedyt*1。CELF 利 


蒙特 卡 罗 模 拟 的 方式 进行 近似 计算 。 
为 了 提高 仿 梦 算法 的 可 扩展 怕 
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EE， 研究 人 员 提 出 了 一 系列 的 改进 策略 ， 包 括 CELFIO、 
了 IM 问题 目标 函数 的 子 模 性 ， 从 第 二 轮 起 每 轮 只 
要 检查 少量 的 侯 选 节 点 ， 从 而 有 效 地 降低 了 计算 量 。CELF++ 又 在 前 者 基础 上 充分 利用 单 


需 


轮 


chinaXiv:201703.00191v1 


蒙特 卡 罗 模 拟 去 同时 计算 两 个 集合 的 影响 力 ， 在 仅 增 加 
量 。NewGreedy 通过 对 网 络 
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少量 内 存 的 前 提 下 有 效 地 减少 计算 
FP 所 有 边 进 行 预 判定 的 方式 达到 在 每 轮 蒙 特 卡 罗 模 拟 中 同时 检 
查 各 候选 节点 性 能 的 目的 , 但 这 种 方法 相 比 CELF 仪 在 第 一 轮 计算 9 


FP 具有 优势 ， 从 而 作者 又 


提出 了 MixedGreedy， 在 第 一 轮 中 采用 NewGreedy 的 方法 ,第 二 轮 往 后 均 使 用 CELF。 上 述 


这 些 方 法 都 有 效 地 降低 了 自然 贪 禁 算 法 的 计算 复杂 度 , 同时 又 基本 保证 了 解 的 精度 , 但 依旧 


无 法 适用 于 动 轰 上 百 万 节点 、 上 亿 条 边 的 社交 网 络 。 为 了 进 


步 提高 求解 IM 


问题 的 速度 ， 


人 们 开始 致力 于 设计 扩展 性 强 、 高 效 的 启发 式 算法 站。 但 是 启发 式 算法 不 能 像 贪 梦 算 法 那样 


保证 问题 的 求解 精度 ， 结 果 的 可 靠 性 没有 保证 。 


我 们 从 贪 梦 算 法 入 手 研究 高 精度 可 扩展 的 IM 问题 算法 。 我 们 指出 ， 贪 焚 


性 和 高 精度 无 法 兼顾 的 原因 在 于 : 为 了 保证 贪 梦 算 法 的 精度 , 需要 尽 可 能 准确 
节点 集合 的 影响 力 ， 这 需要 进行 很 多 次 数 的 蒙特 卡 罗 模 拟 ， 从 而 导致 算法 的 
临 的 “高 精度 ”与 “可 扩展 ”的 矛盾 ， 我 们 分 析 发 现 : 现 有 的 贪 梦 算 法 


针对 贪 焚 算 法 国 


由 于 采用 蒙特 卡 罗 模 拟 来 近似 计算 给 定 节点 集合 


程 中 ，IM 问题 的 目标 也 


精度 降低 。 


算法 的 可 扩展 


| 


影响 力 ， 结果 导致 ， 在 贪 焚 
数 不 再 有 具备 模块 性 和 单调 性 的 特征 。 为 了 克服 该 问题 


算法 大 多 采用 提高 蒙特 卡 罗 模 拟 的 次 数 来 尽 可 能 保证 IM 问题 目标 函数 在 贪 梦 
模块 性 和 单调 性 ,， 一旦 降低 蒙特 卡 罗 模 拟 的 次 数 ， 模块 性 和 单调 性 就 无 法 保 记 


地 计算 出 给 定 


可 扩展 性 差 。 


算法 的 计算 过 
， 现 有 的 贪 梦 
算法 过 程 中 的 


FE， 导 致 算法 的 


在 发 现 “ 高 精度 ”与 “可 扩展 ”矛盾 的 症结 之 后 ， 针 对 独立 级 联 传播 模型 ， 我 们 提出 了 


种 静态 仿 梦 算法 ， 在 求解 IM 问题 时 可 以 兼顾 算法 的 高 精度 和 可 扩展 性 。 具 


体 而 言 ， 我 们 


利用 独立 级 联 模 型 的 性 质 ， 对 每 条 边 上 的 传播 概率 进行 独立 采样 ， 从 而 得 到 一 个 传播 网 络 。 


计算 给 定 节点 集合 的 影响 力 ， 等 价 于 在 传播 网 络 上 找 给 定 节 点 的 可 达 节 点 范 


围 。 最 后 ， 通过 


多 次 独立 采样 ， 得 到 多 个 传播 网 络 , 将 各 个 网 络 上 计算 出 的 影响 力求 均值 ， 作 为 给 定 节点 集 
合 的 影响 力 。 如 此 一 来 , 在 贪 焚 算 法 的 计算 过 程 中 ,这 些 事先 得 到 的 传播 网 络 被 重复 用 来 计 


低 了 2 个 数量 级 。 


(a) 影响 力 网 络 
图 


Co CW | WO 
了 \、 > 


(b) 传 播 网 络 1 
4.， 现 有 贪 梦 算法 不 能 保证 模块 性 的 示意 


(0) 传 播 


图 4 通过 示意 解释 了 现 有 贪 禁 算 法 不 能 保证 模块 性 的 原因 。 子 图 (a) 中 是 
对 应 的 影响 力 网 络 ， 虚 线 表示 这 条 边 以 某 个 概率 存在 。 子 图 b) 和 (c) 是 对 子 图 (9) 中 的 网 络 进 
行 采 样 得 到 的 传播 网 络 。 其 中 ， 子 图 (b) 中 的 传播 网 络 在 贪 梦 算 法 的 第 一 轮 用 于 计算 节点 集 
合 的 影响 力 ， 子 图 (o 中 的 传播 网 络 在 贪 禁 算 法 的 第 二 轮 用 于 计算 节点 集合 的 影响 力 。 贪 焚 


算 各 个 节点 结合 的 影响 力 ， 从 而 严格 保证 了 IM 问题 目标 函数 的 模块 性 和 单调 性 。 在 模块 性 
和 单调 性 得 到 严格 保证 的 情况 下 , 我 们 只 需要 少数 几 次 独立 采样 , 即 可 充分 估 
的 影响 子 , 通常 只 需要 100 次 左右 蒙特 卡 风 模拟 ， 相 比 于 现 有 贪 焚 算 法 的 20000 次 而 言 ， 降 


计 出 节点 结合 


D5| [® ©@—® 


Cs) 
J 


网 络 2 


独立 级 联 模 型 
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算法 在 第 一 轮 中 会 选 定 影响 力 最 大 的 节点 v2 作为 种 子 节点 。 注 意 ， 在 第 一 轮 中 ， 


v4 的 影 
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因此 v4 的 影响 力 边 际 效应 为 0。 在 第 二 轮 中 ， 由 于 第 一 轮 已 经 选择 了 节点 v2 作 


为 种 子 节 点 ， 将 节点 v4 作为 新 增 减 的 种 子 节 点 ， 所 带 来 的 影响 力 边际 效应 为 1， 即 影响 到 
了 节点 v6。 因 此， 节点 v4 在 第 二 轮 的 边际 效应 比 第 一 轮 要 大 ， 这 与 模块 性 所 要 求 的 边际 效 
应 递减 是 矛盾 的 。 因 此 ， 现 有 贪 焚 算 法 不 能 保证 模块 性 。 


EEB CELFGreedy 国王 StaticGreedyCELF 加 地 StaticGreedyDU 


| 
| 


ns Slashidot Douban 


号 PMIA 区 DegreeDiscountlC EDI Degree 
10 
10° : 
103 | 上 : 
di 
于 10| 上 
在 : ES 
|| 四 
点 “| 
加 
2 : 请 
10 r 高 和 
| RY 人 
103 | 由 4 
NetHEPT NetPH DBLP Epinio 
数据 集 
图 5， 算 法 时 间 开 销 对 比 


我 们 在 三 个 科学 家 合作 网 络 (NetHEPT、NetPHY、DBLP) 和 三 个 社交 网 络 (Epinions、 
Slashdot、Douban)〉 上 进行 了 实验 。 图 5 为 算法 的 时 间 开 销 对 比 。 从 实验 结果 可 以 看 出 ， 我 


们 提出 的 算法 (StaticGreedy) 大 大 降低 了 时 间 开 名 
致 。 另 外 , 我 们 的 算法 采用 了 贪 禁 算法 的 


信 禁 算法 (CELFGreedy) 是 一 致 的 。 综 上 所 述 ， 我 们 提出 的 静态 贪 梦 算法 通过 严格 保证 


省 ， 和 目前 最 快 的 启发 式 算 法 (PMIA) 一 
E 架 ， 这 在 理论 上 保证 了 其 计算 精度 和 精度 最 好 的 


IM 


问题 目标 函数 的 模块 性 和 单调 性 ， 巧 妙 解决 了 现 有 贪 禁 算 法 面临 的 “高 精度 ”和 “可 扩展 ” 


之 间 的 矛盾 。 


网 络 多 类 型 结构 规则 分 析 


es 


探索 网 络 结构 和 功能 之 间 的 关系 


研究 。 然而， 除 社区 结构 外 ， 


这 些 多 种 类 型 的 结构 从 不 同 侧面 反映 了 网 络 的 结构 规则 ， 


是 网 络 分 析 的 重要 研究 内 容 。 在 过 去 十 年 间 , 社区 
结构 作为 很 多 真实 网 络 所 普遍 具有 的 一 种 结构 规则 , 得 到 了 很 多 领域 学 者 的 广泛 关注 和 深入 
网 络 还 具有 多 种 类 型 的 结构 规划， 包括 多 部 结构 (multi-partite 
structure )、 层 次 结构 (hierarchical structure ) 和 核心 -外 围 


结构 (core-periphery structure) 等 。 
而 分 析 网 络 固有 的 结构 规则 对 于 我 


们 认识 网 络 和 有 效 利 用 网 络 上 共有 重要 理论 意义 和 实际 价值 。 


我 们 针对 网 络 多 类 型 结构 规则 的 发 现 


展开 研究 , 指出 现 有 方法 存在 的 两 个 不 足 之 处 : (1). 
现 有 方法 大 多 “先入 为 主 ” 地 假定 网 络 具有 某 种 特定 类 型 的 结构 规则 ， 基 于 这 样 的 假定 ， 进 
而 设计 算法 去 揭示 该 结构 规则 。 因 此 ， 当 对 网 络 结构 规则 的 事先 假定 与 实际 不 符合 时 ， 算 法 
往往 无 法 正确 地 揭示 网 络 的 结构 规则 ， 甚 至 会 得 出 错误 结论 ; (2). 很 多 真实 的 网 络 往往 同时 
只 有 多 种 类 型 的 结构 规则 ， 而 现 有 的 方法 却 大 多 仅 能 揭示 网 络 某 种 特定 的 结构 规则 。 另 外 ， 


网 络 有 可 能 具有 一 些 未 知 类 型 的 结构 规则 ， 一 个 好 的 方法 应 该 能 够 揭示 出 未 知 的 结构 规则 。 
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现 有 方法 存在 的 不 足 主要 源 于 其 对 结构 规则 的 定义 缺乏 灵活 性 ， 描 述 能 力 不 足 。 例如 ,针对 
区 结构 而 设计 的 方法 , 认为 社区 是 内 部 节点 之 间 连 接 紧密 、 社 区 之 间 连 接 稀疏 的 节点 结合 ， 
这 样 的 定义 局 限于 同 配 结构 (assortative structure )， 因 此 无 法 适用 于 发 现 诸如 多 部 结构 在 内 
的 异 配 结构 (disassortative structure ) 。 
针对 现 有 方法 的 不 足 , 我 们 提出 一 种 网 络 多 类 型 结构 规则 的 探索 性 分 析 方 法 。 该 方法 把 
网 络 结构 规则 定义 为 “网 络 节点 可 以 分 成 一 些 节点 组 , 同一 组 内 的 节点 具有 相近 的 连接 偏好 
或 连接 模式 ”这 一 灵活 的 定义 使 得 多 种 类 型 的 结构 规则 可 以 在 一 个 统一 的 框架 下 得 以 揭示 。 
进而 , 我 们 把 网 络 结构 规则 视 为 未 观测 到 的 量 (hidden quantity), 基于 观测 到 的 网 络 数据 ( 节 
点 间 的 连 边 ) 和 对 网 络 结构 规则 的 定义 ， 通 过 统计 推断 的 期 望 - 最 大 化 (Expectation 
Maximization Algorithm ) 算法 ， 推 断 出 网 络 回 有 的 结构 规则 。 和 现 有 方法 相 比 ， 我 们 方法 最 
大 的 优势 在 于 其 灵活 性 , 这 种 灵活 性 使 得 我 们 的 方法 在 克服 现 有 方法 不 足 的 同时 可 以 吸收 他 
们 的 优点 ， 揭 示 网 络 多 种 类 型 的 结构 规则 。 
具体 地 讲 ， 我 们 的 方法 是 一 种 随机 分 块 模型 (stochastic block model)。 我 们 假定 网 络 的 
n 个 节点 被 划分 在 c 个 模块 内 ， 随 机 选择 的 一 条 边 ey (表示 由 节点 i 指向 节点 j 的 边 )， 其 连 
一 接 模块 x 和 模块 s 的 概率 由 ws 表示 。 男 外 ， 一 条 从 模块 + 指出 的 边 ， 其 尾 节 点 是 节点 i 的 
_ 概率 由 0 表示， 一 条 指向 模块 s 的 边 ， 其 头 结 点 是 节点 j 的 概率 由 wy 表示 。 在 我 们 的 模型 
中 ， 所 使 用 的 量 可 以 分 为 三 类 : (1). 已 观测 到 的 量 4 (网 络 邻 接 和 矩阵 ， 其 元 素 4 表示 由 节 
点 荆 指 问 节点 j 的 边 的 权重 );，(2). 未 观测 到 的 量 史 《表示 边 ej 的 尾 节 点 i 所 来 自 的 模块 ) 
和 各 (表示 边 ey 的 头 节点 7 所 来 自 的 模块 )， 和 (3). 模型 参数 w,,。、0,; 和 gy。 根据 我 们 的 模 
型 ， 一 条 边 ej 的 生成 的 过 程 可 以 描述 如 下 : 
1， 以 概率 w,s 选择 两 个 模块 8 =r 和 总 =S; 
2. 从 模块 + 中 ， 以 概率 0 选择 节点 ;作为 边 ef 的 尾 节 点 ; 
3， 从 模块 y* 中， 以 概率 9y 选 择 广 太 ) 作为 边 ej 的 尾 节 点 。 
志 取 未 观测 量 素 ,和 &; 的 所 有 可 能 值 ， 观 测 到 边 ej 的 概率 表示 如 下 : 
Prob (e; lo,9,g) =70,0,9; 
进而 ， 根 据 我 们 的 模型 ， 观 测 到 整个 网 络 的 概率 为 : 
Prob (Alw,0,9) = nz 访 汪 ， 站 
另外 ， 模 型 参数 满足 如 下 约束 条 件 : 
之 > = > = > py =1 
使 用 期 望 最 大 化 算法 (EM 算法 )， 通 过 使 根据 模型 观测 到 网 络 的 概率 最 大 化 ， 我 们 得 


-> 


说 


a 


到 
@,09, 
irs = 
> OO 9, 
和 
2 yg 2 A,q; _ 2 Ag 
Dim Aygs Din yq Zi A 

这 里 ， 隐 变量 gr 表示 观测 到 的 一 条 边 ep， 其 尾 节 点 i 来 自 模块 "， 结 点 了 来 自 模块 s 

的 概率 。 


上 面 的 两 个 式 子 构成 了 EM 算法 的 核心 , 迭代 计算 上 面 两 个 式 子 直到 收敛 , 便 得 到 了 模 
型 参数 w,;,、0w:、py、 以 及 隐 变 量 gs 的 具体 取 值 。 这 些 值 提供 了 网 络 结构 规则 的 所 有 信息 。 
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7 对 比 了 我 们 的 模型 和 现 有 的 两 个 代表 性 模型 。 其 中 ， 纽 曼 (Newman) 的 模型 

可 以 发 现 社区 结构 和 多 部 结构 等 多 种 类 型 的 结构 规则 ,然而 由 于 缺少 模块 间 关 系 的 描述 , 使 

得 其 不 能 对 所 揭示 的 结构 规则 的 类 型 进行 有 效 判 定 , 而 且 当 网 络 中 多 种 结构 规则 并 存 时 无 法 

有 效 识别 网 络 结构 规则 。 任 (Ren) 的 模型 中 是 我 们 模型 的 特例 ， 仅 能 发 现 网 络 的 社区 结构 ， 
而 我 们 的 模型 可 以 有 效 发 现 网 络 中 多 种 类 型 的 结构 规则 。 


- "©00000 


On, ;Ps 
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(al (b) (C) 
图 6， 模 型 比较 : (a) 纽曼 的 模型 ，(b) 任 的 模型 ，(c) 我 们 的 模型 


微 博 消 息 流行 度 预测 


近年 来 ， 在 线 社交 网 络 服务 已 逐渐 成 为 信息 网 络 应 用 的 主流 。 类 似 Facebook〔 脸 书 )、 
YouTube 优 免 )、Twitter〔 推 特 )、 新 浪 微 博 、 人 人 网 等 社交 网 络 不 仅 为 人 们 提供 了 交互 的 
社交 平台 , 也 在 塑造 现今 互联 网 产业 的 商业 模式 上 发 挥 了 越 来 越 重要 的 作用 。 涌现 的 这 些 社 
交 网 络 带 给 人 们 分 享 信息 和 交互 便利 的 同时 ， 也 给 信息 的 过 滤 和 有 效 利用 提出 了 挑战 。 

随 着 大 数据 时 代 的 到 来 , 社交 网 络 上 海量 的 用 户 行为 轨迹 信息 可 以 被 获得 和 利用 , 这 也 
为 我 们 深入 研究 社交 网 络 上 信息 扩散 相关 的 一 系列 科学 问题 提供 了 机 会 ,我 们 以 新 浪 微 博 为 
|， 将 用 户 在 新 浪 微 博 上 发 布 的 微 博 称 为 消息 ， 并 将 微 博 被 转发 的 次 数 称 为 消息 的 流行 度 。 
具体 研究 问题 为 ， 如 何 根据 消息 被 发 布 后 一 个 小 时 的 扩散 情况 ， 预测 其 未 来 可 能 的 流行 度 。 
该 研究 具有 着 重要 的 技术 、 商 业 和 社会 意义 与 价值 : (1).， 从 技术 的 角度 看 ， 对 消息 流行 度 演 
化 的 理解 , 可 以 驱动 服务 提供 商 设 计 出 具有 成 本 效益 的 缓存 和 内 容 分 发 机 制 系统 ， 以 及 发 现 
诸如 搜索 引擎 等 系统 中 的 潜在 瓶颈 ; (2). 从 商业 的 角度 看 , 对 消息 流行 度 的 预测 不 仅 可 以 帮 
助 新 闻 记 者 、 内 容 提供 商 、 广 告 商 、 新 闻 推荐 系统 等 提供 信息 服务 和 病毒 式 营销 策略 ， 还 可 
能 辅助 发 现 线 上 或 线 下 的 潜在 商业 机 会 ; (3). 从 社会 的 角度 看 ,对 消息 流行 度 预 测 的 深入 研 
究 ， 可 以 揭示 人 类 群体 行为 的 属性 和 规则 , 便于 管理 者 更 加 及 时 准确 地 和 掌握、 监管 和 引导 公 


0.2 
0 20 40 60 80 100 120 140 160 180 


消息 上 传 后 所 经 历 的 时 间 小时) 站 


图 7， 消 息 流行 度 和 消息 生命 周 芒 
我 们 首先 对 全 部 消息 的 流行 度 进行 统计 , 发 现 消 息 流行 度 也 是 近似 符合 究 律 分 布 的 。 这 
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表明 少数 消息 获得 了 人 们 大 量 的 关注 ， 而 大 多 数 消息 获得 的 关注 都 非常 有 限 。 这 也 是 符合 现 
阶段 研究 中 人 们 对 人 类 行为 规律 的 认识 的 。 通 过 对 消息 生命 周期 的 分 析 , 我 们 发 现 大 多 数 消 
息 的 流行 度 在 24 小 时 内 便 达 到 了 最 终 流 行 度 的 80%， 并 在 48 小 时 内 达到 90%， 如 图 7 左 
边 部 分 所 示 。 基 于 这 样 的 统计 发 现 ， 我 们 将 消息 的 生命 周期 定义 为 48 小 时 ， 并 发 现 消息 生 
命 周 期 近似 服从 对 数 正 态 分 布 (log-normal distribution)， 如 图 7 右边 部 分 所 示 。 

消息 流行 度 预测 的 经 典 方 法 是 利用 Digg* 上 消息 早期 与 晚期 的 流行 度 的 对 数 之 间 的 强 关 
联 性 ， 采 用 线性 回归 模型 直接 外 推进 行 预测 中。 而 这 种 强 关 联 性 在 新 浪 微 博 上 是 否 存在 尚 
旦 未 知 , 于 是 我 们 进一步 分 析 了 新 浪 微 博 上 消息 流行 度 的 时 序 关 联 性 。 实 验 结果 表明 ， 新 浪 
微 博 上 消息 早期 与 晚期 的 流行 度 的 对 数 之 间 的 皮尔 森 相 关系 数 为 0.74, 远 低 于 经 典 方法 中 的 
接近 0.9。 这 个 结果 表明 ， 针 对 新 浪 微 博 上 消息 流行 度 预测 问题 ， 经 典 的 直接 外 推 的 方法 未 
必 适 用 。 


) 


示 


48 小 时 后 的 流行 度 (对 数 坐 书 


10” 


10 
一 小 时 后 的 链接 密度 一 小 时 后 的 扩散 深度 
图 8， 消 息 最 终 流 行 度 和 早期 连 边 密度 和 扩散 深度 之 间 的 关系 


本 文 针对 信息 扩散 早期 的 传播 者 ， 通 过 
挖掘 他 们 之 间 的 结构 属性 ， 试 图 为 消息 流行 


表 1 三 种 算法 结果 对 比 


度 的 预测 提供 一 些 指示 因素 。 直 观 上 理解 ， 6 es 
如 果 一 条 消息 早期 的 传播 者 之 间 在 结构 上 具 | 二 天 
有 多 样 性 ， 那 么 它 最 终 会 扩散 到 更 广 范围 的 “| 基准 方法 
ES 可 能 性 就 越 大 。 本 课题 从 消息 早期 扩散 深度 “| 利用 链接 密度 
一 和 传播 者 问 连 边 密度 两 个 角度 来 刻画 结构 多 “| 利用 扩 豆 深度 ue 


上 


样 性 。 通过 实证 发 现 ， 消息 最 终 流行 度 的 对 数 与 早期 传播 者 间 连 边 密度 的 对 数 之 间 存 在 很 强 
的 负 相 关 ， 与 消息 早期 扩散 深度 之 间 存 在 很 强 的 正 相 关 ， 如 图 8 所 示 。 


基于 上 述 实 证 发 现 , 我 们 提出 了 融合 结构 属性 的 线性 模型 预测 方法 , 采用 均 方 根 误差 和 
平均 绝对 误差 两 种 评估 策略 ， 与 经 典 基准 方法 进行 预测 性 能 的 比较 ， 实 验 结果 如 表 1 所 示 。 


综 上 所 述 ， 本 课题 针对 社交 网 络 上 消息 流行 度 预测 问题 ， 通 过 实证 研究 ,挖掘 出 结构 多 
样 性 对 流行 度 预 测 的 指示 作用 , 并 在 此 基础 上 建立 模型 进行 预测 , 性 能 比 经 典 流 行 度 预测 方 
法 显著 提高 。 我 们 的 发 现 为 更 好 地 理解 社交 网 络 上 消息 流行 度 预测 乃至 信息 扩散 机 制 问题 提 
供 了 一 个 帘 新 的 视角 ， 上 有 共有 重要 的 理论 和 应 用 价值 。 


结语 


1 一 个 以 科技 为 主 的 新 闻 站 点 ， 与 一 般 新 闻 网 站 不 同 的 是 ， 在 digg 中 用 户 可 以 提交 新 闻 并 订阅 新 闻 ， 当 订 
阅 数 达到 一 定数 量 后 ，digg 算法 将 自动 把 新 闻 加 入 首页 
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本 文 从 社会 推荐 的 后 验 效用 、 影 响 力 最 大 化 算法 、 网 络 结构 分 析 和 消息 流行 度 预测 四 个 
介绍 了 我 们 在 社会 计算 方面 的 一 些 研究 工作 。 这 些 研 究 只 是 社会 计算 领域 丰富 内 容 的 冰 
角 。 大 量 社会 感知 数据 汇聚 了 人 类 的 关系 、 行 为 、 言 论 、 情 感 等 ， 是 人 类 社会 的 数字 足 
人 类 社会 的 组 织 原则 、 社 会 规范 、 活 动 规律 、 行 为 模式 都 蕴含 在 社会 感知 数据 中 。 在 当 
数据 时 代 ， 我 们 有 着 前 所 未 有 的 机 遇 来 开展 社会 计算 。 传 统 的 社会 学 、 心 理学 和 认 知 科 
动力， 被 注入 了 新 的 活力 ,衍生 出 了 诸如 计算 社会 学 、 认 知 计 
交叉 学 科 或 领域 .社会 计算 的 大 幕 早已 拉 开 , 大 数据 时 代 的 到 来 将 社会 计算 推 向 了 高 潮 ， 
的 几 年 内 大 数据 驱动 的 社会 计算 将 会 催生 出 我 们 难以 预料 的 成 果 , 人 类 社会 将 和 自然 
为 自然 科学 的 研究 范畴 。 大 数据 时 代 的 社会 计算 ， 立足 数据 、 面 向 社会 ， 是 大 数据 的 3 
用 场景 ， 也 必 将 产生 影响 深远 的 研究 结 
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